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О5ІХС ОЕ УКІСНТЕР АКЕТХ СОКХТЕХТ-КЕКЕ СВАММАВЗ5 
КОВ МІХЕОР 5УХТАСТІС-5ЕМАХТІС РАВЗ5ІХС 5ЕХТЕХСЕЗ5 


У статті розглянуто використання зважених афіксних контекстно-вільних граматик для 
змішаного синтаксично-семаничного розбору речень української мови. Представлена модифікація 
афіксної граматики над скінченною граткою (Ах огапатаг оуег а Ппіїє Іайісе, АСКІ), яка додає 
семантичний атрибут і нову форму продукцій, яку названо «шаблонна продукція». Ця нова форма дає 
змогу створювати лаконічні і ефективні, з точки зору обчислень, продукції на основі онтологій. 
Вивчено нормальну форму шаблонних продукцій і запропоновано ефективний алгоритм для 
синтаксично-семантичного аналізу речень на їх основі. Проведено експерименти із використанням 
зважених афіксних контекстно-вільних граматик для синтаксично-семаничного розбору речень 
художнього тексту, які показали, що середній час розбору речень виявився практично лінійною 
функцією від кількості слів у них. 

Ключові слова: синтаксично-семаничний розбір, зважена  афіксна контекстно-вільна 
граматика, шаблонна продукція, онтологія. 
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ої раг5іпє йте цшгпеад о їо Бе аПто5і Ппеаг Гипсйоп ої ре пиптрег ої у/огд8 іп а 5епіепсе. 

Кеуууогаз: зупгасііс-5етапііс рагзіпо, ууеідріва айіх сопіехі-їтее ргапаитаг, іегаріаіе ргодисбіопе, опіоіогу. 


Вступ 

Проблема автоматичного розбору текстів не є новою і все частіше виникає при 
створенні комп'ютерних додатків, які вирішують задачі машинного перекладу, 
пошуку інформації, класифікації документів, взаємодії між людьми та комп'ютером, 
моніторингу соціальних мереж тощо. 

Задача синтаксично-семантичного розбору є складною задачею штучного 
інтелекту, оскільки її комплексне рішення вимагає побудови повної моделі 
людського знання. Хоча такі моделі в даний час розробляються |(1|, досі немає 
повноцінного рішення. 

Для синтаксично-семантичного аналізу запропоновано підхід з використанням 
зваженої афіксної контекстно-вільної граматики (уусідПіеад аїйїх сопіехі-Їтее ггаттаг, 
МУ АСЕС), яка є модифікацією відомої афіксної граматики над скінченною граткою 
(АСЕІ). МАСЕС використовує переваги ймовірнісної контекстно-вільної граматики 
(РСЕС) |2| та афіксної граматики над скінченною граткою, розробленою К. 
Костером |3|. Відомі зважені та стохастичні граматики також застосовуються |41, але 
підхід, що базується на вагах, є більш гнучким. 
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Постановка проблеми 

Основною метою цієї статті є розроблення підходу для ефективного подання 
зваженої афіксної контекстно-вільної граматики за допомогою спеціальної форми 
«шаблонна продукція». 

Ця стаття описує метод, у якому семантичний аналіз інтегрований в алгоритм 
синтаксичного аналізу. Цей підхід допомагає зменшити кількість проміжних 
конструкцій, які необхідно розглянути. Це особливо важливо для флективних мов, 
таких як українська та інші слов'янські мови. 

Проблема полягає в розробленні ефективних методів інтеграції семантичних 
атрибутів у продукції зваженої афіксної контекстно-вільної граматики та 
розробленні ефективного алгоритму розбору речень. 

Аналіз останніх досліджень та публікацій 

Проблема синтаксичного розбору речень вивчається протягом тривалого часу. 
Серед багатьох методів розбору речень підхід на основі породжувальних граматик, 
запропонований Н. Хомским |5|, є одним з найбільш вивчених. Розширені афіксні 
граматики (ЕАС) |6| та  ймовірнісні контекстно-вільні граматики |2| є 
породжувальними розширеними фундаментальними граматиками, що широко 
використовуються в лінгвістичних програмах у даний час. 

Афіксні граматики, які належать до сімейства дворівневих граматик, є 
підмножиною розширених граматик. Продукції афіксної граматики є продукціями, 
які розширені атрибутами. Домен атрибутів визначається метаграматикою. 

Ефективність афіксних граматик над скінченною граткою та їхнє застосування 
у алгоритмі розбору речень були доведені К. Костером |3|. Розширення АСЕЇ,, які 
базуються на ймовірностях, також вивчали Т. Сміт та Дж. Клірі |71. 

Запропонований авторами підхід на основі зваженої афіксної граматики над 
скінченною граткою є близьким до методу, введеного К. Костером. Однак ми 
формулюємо цю граматику та продукції по-іншому, що дає змогу використовувати 
коротку форму продукцій та компактний алгоритм розбору речень. 

Метод змішаного  синтаксично-семантичного розбору речень з 
використанням УУАСЕС 

Зважена афіксна граматика над скінченною граткою. Для змішаного 
синтаксично-семантичного розбору речень розроблено новий  парсер, який 
використовує зважену афіксну граматику над скінченною граткою. Ця граматика 
розширює символи породжувальної граматики афіксами, які можуть бути 
використані для зменшення кількості продукцій, необхідних для опису мови. Подане 
в статті означення афіксної граматики над скінченною граткою дещо відрізняється 
від запропонованого К. Костером, але воно має таку саму ідею. Це нове означення 
було використано для доведення того, що деякі правила перетворення можуть бути 
застосовані до граматики для прискорення процесу синтаксичного аналізу. 

Зважена афіксна граматика над скінченною граткою С визначається як кортеж 
(ТУ, 5, Ю, Р), де Т являє собою множину всіх термінальних символів, У являє собою 


множину всіх символів, 5є / Т -- це початковий символ, який являє собою 
множину афіксних доменів, що не перетинаються; кожен домен 1), являє собою 


множину афіксів А(Ю,) ;Р - це множина шаблонних і регулярних продукцій. 


Регулярні продукції мають форму (у се ) зу за у ) ,де А - це множина всіх 
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афіксів з  А«А(р)- |) А(р,), 2" позначає ( потужність множини А, і 
г єр 


(у х 27) позначає всі непусті рядки атрибутивних символів 5,5,...5,, З Кк 20, 


А з - --. 
5 (»,,А,), (», А )єУ х2 ; уЄК" є мультиплікативна вага продукції. Символ 
ваги можна пропустити, коли він дорівнює І. 

Термінальні символи г, є Т не мають атрибутів. Вони зазвичай являють собою 
слова речень після синтаксичного аналізу. Наприклад, слово «лікар» може бути 
чоловічим чи жіночим іменником однини, перш ніж він буде відомим з контексту. 
Згідно з термінами породжувальної граматики, це може бути написано таким чином: 


(лоип, (а ремате» ЧзтмстАв» Чростов 7 ) п (лікар, Ф) , 


(ло ип (ауд змов Йросток У ) го (лікар, 2). 

Альтернативна форма може бути записана | таким чином: 
(РР РРЛИВОРРНИ Др РНБАНИУНО РР Д  (пікар, Ф). Вона ш являє собою обидва 
випадки, наведені вище. Продукції, які генерують термінальні символи, додаються 
морфологічним аналізатором. Якщо якесь слово є омографом, морфологічний 
аналізатор генерує одну продукцію для кожного значення слова. Вага кожної 
продукції відображає допустимість цього значення в аналізованому контексті. 

У наведеному вище прикладі апрудр'Чудів Зсіхсідк - ЦЄ Граматичні атрибути, 


а стурекг Є ССМАнтичЧнНИиИМмМ атрибутом. Семантичні атрибути - це елементи домену ру - 


Забезпечення регулярних продукцій для всіх можливих комбінацій афіксів 
може бути неефективним. Для цього вводиться шаблонна форма продукцій. Ця 
форма розроблена для підвищення обчислювальної ефективності опрацювання мови. 


Шаблона продукція має форму Ку 2 А С о У (» й ньо 
«Ку р де Фу Дурон» В 


т? ипі т? Зо 


« СР є в доменами, афікси яких 


іпи 
с Р є доменами, афікси 
А 


успадковуються із символів у,У,,.зУ,) Вр пізно ) 


ипії? ипі т 


яких повинні бути загальними для символів у!, у" ,..., У, ) А 


зеї 1 2 5129 7779 
Ах С А Є додатковими афіксами для символів у лівій частині продукції, та А 
А 
у - це мультиплікативна вага продукції. 

Форма шаблона за означенням еквівалентна множині регулярних продукцій. 
Розглянемо наступний шаблон 1 регулярні продукції (1) 1 (2): 


ч- (СУОУЛИНУ ЛИ Ж С РР Біда КАЄ 9, ку з (1) 
ред а я). 2) 


Нехай, як А 


и 


гед 1 2 


з Ат С А- це необхідні афікси для символів у правій частині продукції; 


тед 2 2 77" тед т 


(ра) позначимо перетин всіх атрибутів, які повинні бути 
однаковими у правій частині регулярної продукції р, щоб відповідати шаблонній 
продукції 4: 

Ар 7) - б и і САД а АФ , 


А )- А А(Ю,,,), ря рДОрООЮ,. 


ипі.т 
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Говорять, що регулярна продукція р відповідає шаблонній продукції 4, якщо 
виконуються вимоги К 1-В3: 

ВІ, (М є1...п)Ю, є Бий 

В2, (Мі є 1... тА, С А"; 

КЗ. (мі є1..ЮА, з А, А, (ра) о А, )). 

Вимога К.І гарантує, що для кожного уніфікованого домену є, принаймні один, 
загальний афікс. Вимога К2 описує, як обробляються обов'язкові атрибути, а вимога 
КЗ вказує на те, як отримуються атрибути символів у лівій частині продукції. 

Наприклад, український еквівалент англійської назви фрази «СКЕЕНМ І БАУЕЗ 
ОЕ ТНЕ ТКЕЕБ» є «ЗЕЛЕНЕ ЛИСТЯ ДЕРЕВА». У цьому іменниковому 
словосполученні відмінок, стать і число прикметника (ЗЕЛЕНЕ) координуються за 
відмінком, статтю та числом першого іменника (ЛИСТЯ), а відмінок другого 
іменника (ДЕРЕВА) є  ЗНАХІДНИМ. Семантичний атрибут для усього 
словосполучення взятий зі слова «ДЕРЕВА». Шаблонна продукція для цього 
словосполучення українською мовою: 

(РИ І Уомвею І АзЕ! І ем , Р) 7-2 (АДІ, (ДО сЕХрев» І омвею І сА5Е , Ф) 


(МР, (ДО Екрев» І Момвею І сА5Е з Рем , ФІМР, 9, (4 ЕМІТУЕ ). 
і англійський еквівалент: 
(МР, (ДЮ уумвев» І ем » т?) й (АРІ, Ф, СУ МВА вів Ем » ФУ ргер, 9, (дор МР, о, 7), 
де МР стоїть біля іменникового словосполучення, АД) стоїть біля прикметника, 


а Ар.) о АЮ) |з 2 


І брурев» Шуумвек» Шсазк» Шзви - це домени для позначення статі, числа, відмінка та 
семантичних афіксів, відповідно. 

Нормальна форма шаблонних продукцій. Довжина правої частини продукції 
називається її рангом. Ефективний синтаксичний аналіз речень за допомогою 
породжувальних граматик може бути досягнутий, коли граматика знаходиться в 
нормальній формі Хомського (СМЕ) -- формі, яка гарантує, що всі продукції граматики 
мають ранг не більше 2. Шаблонні продукції також мають бути перетворені у форму, 
яка має не більше двох символів у правій частині. Це перетворення виконується 
шляхом застосування кроків спрощення для всіх продукцій, які мають ранг більше 2. 
На кожному кроці береться одна шаблонна продукція з рангом т» 21 утворюються 
дві шаблонні продукції - одна з рангом 2 і одна з рангом т--1. Процес зупиняється, 
коли немає більше продукцій із рангом 3 та вище. 

На кроці спрощення береться одна шаблонна продукція д форми (1) і 


утворюються 2 шаблонні продукції: 
Й е (у 7 Р» Аа 1 ) ке , Дяк » Ага Кк у» (у Й , Вії Я 1 у» Зі , ГРА 2.т? 2) 7 


«би Чи Ми 
ве (узи РР с Урана аа ТЕ АН 9 ДОРА РЕА 7 
ипі2.т -р 


Алгоритм синтаксичного розбору речень 
Проблема синтаксичного розбору речень сформульована як проблема пошуку 
послідовності продукцій, що мають максимальну вагу, і можуть бути застосовані 


де р ор .о.Оор 


ипі2 ипі3 ипіт 


і у», - це новий нетермінальний символ. 


послідовно до деякого початкового атрибутивного символу (5,А,) для створення 
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заданої послідовності терміналів /1,..І,. Вага послідовності розраховується як 


добуток ваг усіх збережених продукцій. 
Блок-схема алгоритму розбору показана на рис. 1. 


Вхідні дані: 
граматика Є; 
стрічка термінальних символів 1/.....Ї 


п. 


Початок 


Створити масив РІТ..п,1..п) множина зважених 


Кожен елемент Р -- це 
символів із атрибутами 
Ініціалізувати 
РІЮІНЕИ, г, 8)), ке1,2,...п 
РІК, Ле 8, 2-1,2,..., п, / є«2,3,...п 


)-- це довжина підстрічки 


їог/-1,2,..п термінальних символів 


"К-- це індекс початку 
підстрічки термінальних 
- символів 


їог К-71,2,...,п- 1 


5 -- це індекс для розбиття 


їог 527,2,.../-1 ; - б - 
ппідстрічки на дві менші 


Оновити множину РІК.) 
з використанням РІК,5| 
ї РІКЖ8, |-5), застосовуючи 
всі продукції рангу 2 


епа їог5 


Оновити РІК.) із застосу- 
ванням продукцій рангу 1 


епа богКк 
епа їог| 
Кінець 


Рис. 1. Блок-схема алгоритму синтаксично-семантичного розбору речень 


Наведений вище алгоритм використовує внутрішню процедуру для оновлення 
множини зважених атрибутивних символів О з множини можливих лівих символів І, 
та множини можливих правих символів К із застосуванням рангу 2. Блок-схема цієї 
процедури зображена на Рис. 2. 

Якщо в правій частині продукції міститься лише один символ, вага продукції 
не повинна перевищувати 1, щоб уникнути циклічних продукцій, що збільшують 
вагу нетермінальних символів під час процедури розбору знизу-вверх. 

Розроблений алгоритм розбору речень побудований в основному на 
ймовірнісному СУК-алгоритмі. Головна відмінність полягає в тому, що символи 
порівнюються не тільки за вагою, а й із множиною афіксів. Алгоритм використовує 
поняття зваженого атрибутивного символу -- це кортеж (у, у, А,), що містить вагу у, 


символ у та множину афіксів А, (- А(р). Зважений атрибутивний символ (му уми, А,) 


домінує над зваженим атрибутивним символом, якщо у 2 м», у ЗУ,,14, СА. 
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Вхідні дані: 

Граматика б; 

множина 0, яка оновлюється; 

Множина / можливих лівих символів; 
|. Множина В можливих правих символів 


Початок 


Для всіх(у/|, у,, 4,)ЄГ, 


Для всіх продукцій р з граматики С типу 
(у, Ді 4 ЗУ р УП р р МИРОН, 


ет. » 7 цпі 1" 


де Ані СА і 
(У р,ЄЮ,, 1) 4.04(0,)я 8 


Для всіх (м/», У,, 4,)ЄВ 
де АС 4, Ї 
(У р,ЄЮ,,з)4ПА(Д)є В і 
(м р є(р, П00,,2))4,п4,п.4(Ю,)є 8 


ипі 1 


Обчислити г -|у"-м/, У, А У 
(А, ЗАД Ла(ар4 оди а) 04(Ду))) 


Ні 


(З р,є0)р,гі Додати г до 0 


Так 


Цикл для всіх (м,, у,, 4,)Є В 


Цикл для всіх продукцій р 
Цикл для всіх( у, у, А;)Є 1. 


Кінець 


Рис. 2. Блок-схема процедури оновлення множини зважених 
атрибутивних символів 0 


У найгіршому випадку, обчислювальна складність запропонованого алгоритму 


складає О(п'ту-т,), де п -- довжина вхідного рядка терміналів, т,-- це 


максимальна кількість комбінацій символів граматики та атрибутів, з яких можна 
одержати той самий рядок терміналів (це значення можна розглядати як 
неоднозначність мови, що аналізується), і т, -- це максимальна кількість продукцій, 
які мають однаковий початковий нетермінальний символ у правій частині. 

Аналіз результатів 

Алгоритм розбору речень реалізований у проекті відкритого програмного 
забезпечення |ОКкгРаг5ег |З). Цей проект містить класи для морфологічного та 
синтаксичного аналізу з речень. Обчислювальна ефективність розробленого 
алгоритму перевірена на базі даних 500 речень з оповідань Михайла Коцюбинського. 
Середній час розбору речень залежно від довжини речення зображений на Рисунку 
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3. Ці результати були отримані на комп'ютері з процесором 2,4 ГГц Ше! Соге 15. 


Зростання часу синтаксичного аналізу виявилося практично лінійним. 
2 


1.2 
0.8 
0.6 
0.4 
"і 
0 
3 4 5 6 7 8 


Кількість слів у реченні 


Середній час розбору речень (мс) 


Рис. 3. Середній час розбору речення в мілісекундах 
залежно від довжини речення 


Розроблений підхід для змішаного синтаксично-семантичного аналізу речень 
був використаний для аналізу та перекладу анотованої української жестової мови та 
української словесної мови |9|, де переклад на основі синтаксично-семантичного 
аналізатора, який використовує продукції, згенеровані з використанням онтології, 
показав кращі результати ніж аналізатор, який використовує тільки синтаксичні 
продукції на 2596 (9095 правильних перекладів у порівнянні з 6595 правильних 
перекладів, отриманих при використанні лише синтаксичних продукцій). 

Висновки 

У статті наведено ефективний алгоритм розбору речень за допомогою зваженої 
афіксної контекстно-вільної граматики з семантичними атрибутами. Розроблений 
алгоритм використовує нормальну форму «шаблонних продукцій». Алгоритм має 
кубічну складність, але на практиці зростання часу обчислення виявилося майже 
лінійним відносно кількості слів у реченні. Отримані дерева синтаксично- 
семантичного розбору речення, мають більше семантичних атрибутів, ніж дерева 
синтаксичного розбору, отримані за допомогою синтаксичного аналізатора. 
Додаткові обчислювальні затрати для цього невеликі, оскільки в граматику включені 
лише гіперніми слів, що містяться в реченні та відповідних словосполученнях. 

Подальші дослідження будуть зосереджені на оптимальному розподілі ваги та 
автоматичному утворенню продукцій, специфічних для конкретної предметної області. 
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КЕ5ОМЕ 


О.У. І отупзка, М.У. Раууадоу, У.У. Разіспипук 

Обіпє ої ууеірііед айїх сопіехі-їгее ргапитагя Їог тіхед 5упіасіїіс-5етапіїс 
раг5іпе 5епіепсе5 

Тре ргобіета ої аціотайс (ехі раг5іпеє 15 пог пеуу апа піоге апа тоге агі5е5 муреп 
сгеайпе Фе согариіег арріїсайоп5 Шаї 50Їуе пласпіпе (гап5іацоп (аз5К5, іпіогттайоп 5еагсі, 
доситепі сіаз5ійсайоп, іпіегасйоп Бебмуееп реоріє апа согарикег, 5осіа| пеїмогк 
топіогіпе, еїс. 

Тре газК ої іпсгеа8іпе, еййсіепсу ої ах бгапітаг5 оуег а Ппіке Іайсе 15 соп5ідегей. 
Бог із ригро5е, Ше подійсайоп ої айіх єгапитаг оуег а Ппіїе Іайісе раї адд5 
5етапіїса! айгібціе апа а пеуу Їогтп ої ргодисійоп саПЙед (Бе "Тетріаїе ргодисіоп" 15 
ітріетепіеа. ТБіз пему Гог Беїр5 іо герге5епі опіоіоєу-Базей ргодисйоп5 їп а 5рогі апа 
соптриїанопаПу іпехрепзіуе угау. Тре погта! Їогта ОЇ (етпріаке ргодисоп 15 5 діеа, апа 
еНеспуєе аїбогійт Гог 5уп(асіїс-5етапіс раг5іпо 5епіепсез 15 ргоро5ей. ТБе изіпе ої 
уусієріед аййх сопіехі-йтее єгапитаг Їог пихед зупіасіїс-5етапіїс рагзіпє ЮКгаїпіап 
зепіепсез 15 іпітодисед. 

А пем аїєогійт Їог пихед 5упіасіс-5етапіс рагзіпе, 5епіепсе апа а пему ргоседиге 
Гог ирдайпя, 8еї ої мусібріед айтібиіе5 5упібоїз О аге Фемеїоред. ТРре ехрегітепів ул 
ціп ої ууеїєріеа аїйх сопіехі-Їтее єгапатаг їог зупіасійс-5етапис раг8іпе, ої 5епіепсе5 
їтот Ше (езі Часаба5е ої ОЖКгаїіап Псйоп Шегаите аге сопайсіеа. ТРБе ягомП ої раг5іп5 
йте (игпедй оці (о Бе аїтобі Ппеаг Гипспоп ої Ше питкбег ої м/огаз іп а 5епіепсе. 
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